Otvoreni podaci i projektno sufinansiranje medijskih sadržaja

Tijana Blagojev - R-Ladies Belgrade

Projekat Otvorenim podacima do kvalitetnijeg projektnog sufinansiranja medijskih sadržaja

Interesantni segmenti web aplikacije

Izazovi

  • Velika količina neuniformnih rešenja u pdf formatu.

  • Nazivi podnosilaca projekata koji su zavedeni pod različitim imenima u rešenjima.

  • Nepostojanje informacija u rešenjima o medijima u kojima će se projekat realizovati.

  • Pretraživost APR je limitirana, kvalitet podataka za mašinsko učitavanje takođe.

  • Progutana slova, nepotrebni razmaci,znaci navoda (spas u Open Refine-u).

  • Manjak vremena da se sve još jednom proveri. :)

Šta smo naučili

  • Postaviti što jednostavniju metodologiju za prikupljanje podataka.

  • Ukoliko istraživači naiđu na nešto što je u rešenjima što nije pomenuto u metodologiji obavezno da pitaju šta da rade.

  • Izazovi APR-a delom rešeni uz pomoć alata koji omogućava lakše pretraživanje.

  • Objasniti istraživačima zašto je važno da podaci budu ujednačeni.

Glavni podaci

  • Dataset ima ukupno 11,677 unosa i 10 kolona;
  • Obuhvatio je 154 davaoca sredstava: Pokrajinski sekretarijat, Ministarstvo kulture i informisanja i 152 lokalne samouprave;
  • Na osnovu naziva projekta je opredeljeno 9 tematskih celina a ukupan iznos sredstava u evrima je 70,821,309;
## Rows: 11,677
## Columns: 10
## $ `ORGAN KOJI RASPISUJE KONKURS/OPŠTINA` <chr> "Ada", "Ada", "Ada", "Ada", "A…
## $ `MATIČNI BROJ GRADA/OPŠTINE`           <dbl> 80012, 80012, 80012, 80012, 80…
## $ GODINA                                 <dbl> 2015, 2016, 2017, 2018, 2019, …
## $ `PODNOSILAC PROJEKTA`                  <chr> NA, NA, NA, "PANONIJA MEDIA DO…
## $ `MATIČNI BROJ PODNOSIOCA`              <chr> NA, NA, NA, "21346365", "21443…
## $ `NAZIV MEDIJA`                         <chr> NA, NA, NA, "Produkcija", "Pro…
## $ `NAZIV PROJEKTA`                       <chr> "Sredstva nisu dodeljena", "Sr…
## $ `TEMA PROJEKTA`                        <chr> NA, NA, NA, "Informativni prog…
## $ `SREDSTVA U DINARIMA`                  <dbl> 0, 0, 0, 900000, 500000, 20000…
## $ `SREDSTVA U EVRIMA`                    <dbl> 0, 0, 0, 7610, 4243, 1698, 458…

Vrste varijabli

Merljive mogu se izraziti numerički (Numeric):

  • Integer: Godine, broj pasa, mačaka

  • Double (Continuous): Visina, težina

Atributivne mogu se izraziti u vidu svojih karakteristika ili atributa:

  • Character: Crno, žuto, belo

  • Factor (Ordinal): Hladno, mlako, toplo, vruće

Mudrost potvrđena u praksi

“Retko kada ćete naići na dataset koji možete odmah da analizirate. Biće vam potrebno između 50 i 80 % vremena da očistite i pripremite podatke za analizu”

— brojni saborci koji se bave analizom podataka :)

Kolone koje su popunjavali istraživači

Tabela sa podacima za jednu opštinu

Finalna tabela sa svim kolonama

Izgled tabele sa podacima za jednu opštinu

Primer grafikona koji koristi podatke jedne opštine

Gde sve možete besplatno da objavite vaše kreacije

Dodatni resursi

Kontakt

Hvala na pažnji!